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摘 要 : [目的 /意义 ] 针对 传统 本 体 演化 中 对 新 知识 和 新 需求 的 捕捉 存在 不 准确 、 低 效率 的 问题 ,提出 一 种 基于 领域 新 词 
发 现 的 本 体 演化 方法 ,并 以 用 户 产品 评论 数据 为 例 进行 验证 。|[ 方 法 /过 程 ] 首先 采用 自然 语言 处 理 算法 对 用 户 
产品 评论 文本 语 料 进 行文 本 预 处 理 , 并 利用 Word2vec 算法 进行 词 向 量 嵌 入 ;然后 采用 深度 学 习 中 Bi-LSTM-Atten- 
tion-CRF 算法 实现 候选 领域 新 词 的 识别 和 抽取 ,并 利用 K-means 算法 进行 聚 类 以 得 到 最 终 领 域 新 词 ; 最 后 利用 本 


体 演化 的 六 阶段 演 


化 流程 ,实现 领域 本 体 的 演化 工作 。[ 结果 /结论 ] 以 智能 手机 领域 产品 评论 为 实验 数据 ,验证 


5 了 本 研究 采用 领域 新 词 发 现 模型 具有 更 高 的 准确 率 和 召回 率 ,由 此 演化 得 到 智能 手机 领域 新 版 产品 本 体 。 领 域 
| 新 版 产品 本 体 既 可 以 帮助 产品 设计 者 根据 领域 本 体 中 新 特征 、 新 功能 优化 产品 设计 ,也 可 以 支持 消费 者 利用 产品 
ny 评论 进行 购买 决策 。 
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着 亚马逊 淘宝 等 电 商 网 站 的 快速 发 展 ,用 户 可 
1 更 容易 表达 对 于 各 类 产品 的 评论 。 这 些 用 户 评论 可 
以 者 助 潜在 消费 者 获取 到 有 关 产 品 某 些 特征 的 情感 倾 
向 5 支持 他 们 的 购买 决策 ;商家 和 产品 设计 师 也 可 以 
根 狂 这 些 产品 评论 改善 服务 ,提升 产品 质量 ”。 然 而 ， 
用 户 产 品评 论 是 非 结 构 化 .内 容 规模 庞大 的 文本 数 
据 " ,蕴含 着 多 种 多 样 的 实体 及 实体 间 复 杂 的 隐 含 关 
系 "。 本 体 ( Ontology ) 作 为 知识 组 织 的 工具 ,在 众多 实 
际 应 用 中 开发 并 广泛 使 用 。 利 用 领域 本 体 ,可 以 实现 
对 用 户 产品 评论 的 知识 组 织 、 知 识 存储 以 及 知识 应 用 ， 
为 深入 挖掘 产品 评论 内 容 提供 支持 。 

现实 世界 中 知识 在 不 断 地 更 新 ,用 户 对 知识 的 需 
求 也 处 于 不 断 变化 的 过 程 中 。 随 着 产品 发 布 新 功能 、 
新 特征 ,用 户 评论 也 会 随 之 发 生 改变 。 例 如 ,苹果 公司 
在 2019 年 推出 的 iPhone 11 系列 手机 ,在 手机 的 摄像 


iPhone X 也 出 现 新 的 面部 识别 的 新 功能 。 这 些 手 机 产 
品 的 新 特征 和 新 功能 都 是 用 户 评论 中 会 集中 关注 的 热 
门 话题 ,而 用 户 评论 中 出 现 的 实体 词 和 特征 词 可 能 在 
已 有 的 领域 产品 本 体 中 并 不 存在 ,此 时 需要 对 原版 本 
的 领域 本 体 进行 演化 以 满足 新 需求 。 本 体 演化 ( Ontol- 
ogy Evolution) ,也 叫 本 体 进化 , 正 是 修改 现 有 本 体 以 适 
应 新 知识 和 变化 的 需求 ”。 这 种 演化 体现 了 本 体 的 持 
久 性 ,利于 在 实际 应 用 中 长 期 发 挥 其 价值 。 并 且 ,本 体 
规模 庞大 且 不 断 发 展 ,导致 本 体 演 化 是 一 项 复杂 且 耗 
时 的 任务 ”“。 

在 本 体 演 化 中 ,变化 的 捕捉 是 整个 流程 中 核心 的 
步 又 ,如 果 可 以 利用 前 沿 的 算法 实现 从 新 的 评论 文本 
语 料 中 ,自动 化 识别 并 抽取 出 领域 新 词 ,并 将 这 些 领域 
新 词 用 作 本 体 演 化 需要 捕捉 的 变化 ,对 于 从 评论 文本 
中 构建 领域 产品 本 体 的 演化 而 言 具有 重大 的 意义 : 既 
可 以 使 产品 设计 者 实时 掌握 产品 评论 中 消费 者 关注 的 
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热门 功能 ,组 件 ,以 优化 产品 设计 ;也 可 以 为 消费 者 在 
购买 产品 时 ,利用 新 颖 的 用 户 产品 评论 做 出 购买 决策 
提供 支持 。 因 此 ,本 研究 在 领域 本 体 演化 中 引入 领域 
新 词 发 现 技 术 。 领 域 新 词 发 现 异 于 传统 新 词 发 现 ,要 
发 现 的 新 词 可 能 只 是 在 某 一 个 领域 中 从 未 出 现 ,而 并 
非 所 有 领域 ;发 现 领 域 新 词 可 以 挖掘 出 该 领域 最 新 的 
发 展 动态 。 例 如 对 某 类 产品 的 用 户 评论 中 领域 新 词 发 
现 ,可 以 帮助 人 们 了 解 该 类 产品 当前 最 新 出 现 的 功能 、 
成 分 .包装 等 。 现 如 今 , 神 经 网 络 中 的 深度 学 习 技术 备 
受 关注 且 发 展 迅速 。 深 度 学 习 方法 用 于 学 习 样 本 数据 
的 内 在 规则 和 表示 水 平 ,并 发 现 数据 中 的 隐藏 模式 ” ; 
并 且 , 当 数据 集 大 小 增加 时 ,基于 深度 学 习 的 方法 往往 
表现 更 好 ” ,例如 在 自然 语言 处 理 中 的 分 词 命名 实体 
识别 等 研究 中 。 因 此 ,为 了 实现 领域 新 词 发 现 ,本 文 利 
用 深度 学 习 的 算法 模型 处 理 新 文本 语 料 中 的 数据 ,并 
对 薰 特征 进行 自动 化 识别 和 提取 ,进而 对 构建 的 本 体 
洋 生 结构 和 内 容 的 调整 ,以 支持 本 体 演化 中 变化 捕捉 
,实现 对 于 产品 设计 者 和 消费 者 的 帮助 和 支持 。 


站 关 研究 现状 


本 体 演化 和 新 词 发 现 研究 现状 

中 在 国内 外 已 有 研究 中 ,在 本 体 演 化 和 新 词 发 现 都 
全 但 有 一 些 研 究 进展 ,但 两 者 结合 的 研究 却 相对 较 少 。 
.三 首先 ,本 体 演化 是 在 保证 本 体 一 致 性 的 前 提 下 ,对 
办 特 所 作 的 一 系列 修改 过 程 , 它 可 以 被 看 作为 本 体 发 
展演 程 中 一 系列 操作 的 结果 。 在 本 体 演化 的 研究 中 ， 
可 米 总 体 归纳 为 手动 化 演化 方法 半自动 化 演化 方法 、 
自 画 化 演化 模型 或 系统 这 三 类 。 在 手动 化 演化 研究 
中 , 当 新 知识 或 者 新 的 需求 产生 时 ,V. S. K. Nagireddi 
等 ”和 X，Chen 等 利用 领域 专家 进行 演变 ,或 者 将 
已 有 本 体 与 其 他 领域 本 体 进行 合并 。 在 半自动 化 演化 
研究 中 , 刘 紫 玉 等 ”提出 了 基于 DBpedia 的 本 体 半 自 
动 化 演化 方法 ; 陈 晶 等 "基于 邻接 表 的 SPFA 算法 优 
化 波及 效应 的 计算 ,并 使 用 Floyd-Warshall 算法 对 规模 
较 大 的 本 体 进行 评估 。 在 自动 化 演化 研究 中 , 刘 雪 
等 "提出 一 个 本 体 演 化 驱动 的 语义 搜索 引擎 系 
统一 一 OESSE ,将 本 体 自动 进化 功能 与 语义 搜索 进行 
了 有 机 结合 ; 刘 莹 "将 知识 管理 的 社会 性 融入 到 应 
用 技术 之 中 ,提出 了 一 个 基于 知识 本 体 演化 和 信息 
检索 联动 发 展 的 分 布 式 知识 管理 系统 ;C，Huang 
等 ”针对 智能 制造 应 用 程序 实现 的 目标 ,提出 了 
种 本 体 生 成 和 演化 的 系统 ,该 系统 可 以 自动 从 原始 
生产 数据 中 提取 本 体 ,并 根据 制造 数据 环境 的 变化 


动态 调整 本 体 。 

其 次 ,领域 新 词 发 现 就 是 在 某 一 特定 领域 内 ,之 前 
从 未 出 现 过 的 新 词 的 识别 和 抽取 的 过 程 。 在 传统 的 新 
词 发 现 研 究 中 ,互信 息 和 邻接 烂 被 引入 新 词 发 现 的 研 
究 中 “~ 。 杜 丽 萍 "提出 了 基于 PMI' 算法 与 少量 基 
本 规则 的 互信 息 改进 算法 ,验证 了 通过 进行 新 词 发 现 
能 有 效 改善 分 词 系统 对 网 络 文本 的 处 理 效果 。 也 有 学 
者 基于 规则 的 方法 进行 新 词 发 现 , 如 周 霜 霜 '"” 融合 规 
则 和 统计 的 方法 进行 微 博 新 启发 现 , 王 划 2 采用 了 关 
联 规则 对 网 络 新 闻 热 点 进行 排名 , 陈 梅 婕 汪 在 利用 双 
向 聚合 度 时 采用 了 词 边界 筛选 规则 ,进而 提升 了 专利 
新 词 发 现 性 能 。 此 外 ,还 有 学 者 在 新 词 发 现 研 究 中 引 
入 了 前 沿 的 算法 和 模型 。 其 中 , 张 华 平等 ”采用 条 件 
随机 场 对 社会 媒体 领域 的 大 规模 语 料 中 的 新 词 进行 预 
测 , 取 得 了 更 快 的 速度 及 更 高 的 精度 ; 王 汀 等 ”i 融合 
条 件 随机 场 和 支持 向 量 机 的 方法 进行 新 词 发 现 ,在 获 
取 中 文 百科 分 类 页 面 中 的 实体 识别 时 取得 更 高 的 查 准 
率 和 查 全 率 ; 陈 先 来 ”在 利用 新 词 发 现 改进 现 有 分 词 
模型 时 ,采用 了 互信 息 和 逻辑 回归 算法 ,提高 医学 文本 
分 词 的 准确 率 ; 刘 昱 彤 '" 在 从 大 规模 古 汉语 语 料 中 发 
现 新 词 的 研究 中 改进 了 Apriori 算法 ,并 加 入 了 长 短期 
记忆 网 络 和 条 件 随 机 场 算法 ,该 方法 经 验证 可 以 在 宋 
词 和 宋 史 数据 集 上 有 限 的 识别 出 新 词 ; 赵 志 滨 ”将 句 
法 分 析 和 词 向 量 用 于 新 词 发 现 的 研究 ,通过 护肤 品 论 
坛 的 真实 文本 数据 集 验 证 了 该 方法 进行 新 词 发 现 具 有 
良好 的 性 能 ; 黄 文 明 '™ 采 用 信息 量 和 Bi-LSTM + CRF 
算法 进行 领域 新 词 发 现 ,通过 联想 客服 问答 系统 的 问 
题 数据 集 验 证 了 该 方法 可 以 提高 了 领域 新 词 识 别 的 准 
确 率 。 

综 上 所 述 ,国内 外 已 有 一 些 关 于 本 体 演 化 和 新 词 
发 现 的 研究 。 然 而 ,已 有 的 研究 对 于 大 数据 规模 的 本 
体 预 料 进行 演化 处 理 时 ,基本 没有 结合 新 词 发 现 的 研 
究 方法 ,其 演化 效果 往往 表现 较 差 ;其 次 ,在 领域 新 词 
发 现 的 研究 中 ,大 多 数 没有 结合 深度 学 习 中 的 一 些 前 
沿 算法 和 模型 ,在 处 理 数据 量 庞大 关系 复杂 的 数据 预 
料 时 ,往往 很 难 精准 而 快速 的 发 现 领域 新 闻 。 此 外 ,在 
对 于 非 结构 化 文本 数据 的 知识 组 织 的 研究 中 ,构建 出 
的 本 体 往往 不 具有 长 久 性 和 实时 性 , 随 着 时 间 的 推移 
以 及 开发 者 后 期 维护 较 少 ,基本 难以 得 以 发 挥 持续 价 
值 。 因 此 ,本 研究 将 通过 基于 领域 新 词 发 现 的 本 体 演 
化 技术 ,实现 对 用 户 产品 评论 中 构建 的 领域 本 体 的 演 
化 工作 ,以 充分 发 挥 领 域 本 体 的 应 用 价值 ,为 消费 者 利 
用 产品 评论 进行 购买 决策 提供 支持 。 
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以 产品 评论 数据 为 例 [ 中 人 1 和 到 


2.2 关键 技术 现状 
2.2.1 LSTM 网 络 

长 短期 记忆 网 络 (Long Short-Term Memory, 简 称 
LSTM ) 是 循环 神经 网 络 ( Recurrent Neural Network , 简 
称 RNN) 的 一 种 ,具有 记忆 数据 序列 的 能 力 。RNN™ 
主要 由 输入 层 、 隐 藏 层 和 输出 层 构 成 ,具有 记忆 当前 输 
入 和 上 文 输入 的 信息 的 功能 ,并 且 在 处 理 短 时 间 序 列 
的 文本 序列 时 表现 更 好 。 然 而 ， ee 
息 时 ,RNN 可 能 会 出 现 梯度 消失 或 爆炸 的 问题 
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〇 此 外 ,在 文本 序列 预测 的 时 候 , 有 的 预测 结果 可 能 
面 若 干 输入 和 后 面 若 干 输入 共同 决定 ,由 此 出 现 
似 于 双向 循环 神经 网 络 (BRNN) 的 双向 长 短期 记 
忙 网 络 (简称 Bi-LSTM ) 。Bi-LSTM 主要 包括 前 向 传播 
dr LSTM 

异型 ,通过 前 向 传播 计算 得 到 前 向 特征 信息 ;同样 
地 5 输入 后 向 LSTM 网 络 模型 ,通过 后 向 传播 计算 得 到 
局 加 特征 信息 ,再 将 前 向 特征 信息 与 后 向 特征 信息 拼 
接 暑 得 最 终 的 隐 蕊 状态 ,这 样 就 汇总 了 前 向 和 后 向 双 
向 荞 义 特征 。 利 用 Bi-LSTM 在 解决 关系 复杂 的 文本 序 
列 旺 ,例如 在 用 户 产 品评 论 中 ,由 于 文本 序列 的 预测 不 
仅 取决 于 序列 前 面 一 些 输入 文本 ,同时 也 会 受到 序列 
后 面 输入 文本 的 影响 ,所 以 可 以 采用 Bi-LSTM 提高 评 
论文 本 的 预测 准确 率 。 
2.2.2 Attention 机 制 

传统 编码 - 解码 器 模型 (Encoder-Decoder Model) 
主要 用 于 处 理 文字 .语音 、 图 像 .视频 等 数据 ,由 此 衍生 
出 RNN .LSTM 等 算法 。 在 处 理 文本 序列 时 ,编码 器 将 
输入 文本 序列 编码 成 固定 长 度 的 隐 向 量 ,并 对 隐 向 量 
赋予 相同 的 权重 ;解码 器 基于 这 些 隐 向 量 解码 输出 。 
当 输入 序列 文本 内 容 扩 大 , 且 文 本 序列 对 应 的 分 量 权 
重 相同 时 , Encoder-Decoder 模型 对 于 输入 文本 序列 的 
区 分 度 下 降 , 造 成 模型 性 能 也 随 之 下 降 。 因 此 , D. 
Bahdanau 等 提出 了 Attention 注意 力 机 制 可 以 很 好 
地 解决 此 缺陷 。Attention 机 制 用 于 提升 编码 - 解码 器 
模型 效果 ,从 大 量 信 息 中 快速 第 选 出 高 价值 信息 ,其 本 


此 ,A. Graves' "| 提出 的 LSTM 神经 网 络 解决 了 RNN 存 
在 的 问题 ,并 在 图 像 处 理 和 语音 识别 等 领域 广泛 使 用 。 

相 比 于 RNN,LSTM 在 其 结构 基础 上 增加 了 记忆 
单元 ,以 及 由 输入 门 .遗忘 门 和 输出 门 构成 的 三 种 控制 
门 结构 ” , 见 图 1。 门 结构 是 神经 网 络 中 的 一 层 全 连 
接 层 ,输入 向 量 由 门 结构 处 理 后 输出 0 到 1 之 间 的 实 
数 向 量 。LSTM 这 种 门 结构 基于 sigmoid 函数 ,从 而 使 
得 神经 网 络 拥有 人 允许 数据 通过 (选择 性 保留 ) 或 丢弃 
状态 值 的 功能 ,便于 获取 长 期 序列 距离 中 的 文本 序列 。 


h(t+1) t 


一 一， 


xr0| 


1 LSTM 的 结构 示意 


质 是 模拟 人 的 注意 力 , 仿 照 着 人 类 在 观察 物体 时 大 脑 
的 思维 活动 ” 。 因 此 ,Attention 机 制 在 情感 分 类 、 机 器 
翻译 等 多 个 研究 领域 都 有 重要 的 应 用 价值 。 

在 编码 - 解码 器 模型 的 优化 中 ,Attention 机 制 主 
要 用 于 解码 过 程 , 它 改 变 了 传统 Decoder 对 每 一 个 输入 
输入 文本 序列 都 赋予 相同 向 量 的 缺点 ,而 是 根据 单词 
的 不 同 赋予 不 同 的 权重 。 在 Encoder 过 程 中 ,输出 不 再 
是 一 个 固定 长 度 的 中 间 语 义 , 而 是 一 个 由 不 同 长 度 向 
量 构成 的 文本 序列 ,Attention 机 制 使 得 模型 对 输入 文 
本 序列 的 不 同时 刻 隐 向 量 赋予 了 相对 应 的 权重 ,并 按 
重要 程度 将 隐 疝 量 合并 为 新 的 隐 人 向量, 最 后 输入 到 
Decoder 中 ;而 Decoder 过 程 根据 这 个 序列 子 集 进行 进 
一 步 筑 选 和 处 理 。 因 此 ,引入 Attention 机 制 的 En- 
coder-Decoder 模型 如 图 2 所 示 : 


1 


2 引入 Attention 机制 后 的 Encoder-Decoder 模型 


2.2.3 CRF 序列 标注 
条 件 随 机 场 ( Conditional Random Field, 简称 
CRF) ,结合 了 最 大 炉 模 型 和 隐 和 马尔 可 夫 模 型 的 特点 ， 
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是 一 种 无 向 图 模型 。CRF 模型 在 给 定 一 组 输入 随机 变 
量 X 条 件 下 ,给 出 男 外 一 组 输出 随机 变量 Y 的 条 件 概 
率 分 布 模型 ,并 且 已 被 应 用 于 序列 标注 的 不 同 预测 任 
务 上 ” 。CRF 模型 基本 流程 如 图 3 所 示 : 

人 


状态 序列 


观察 序列 


图 3 ”CRF 模型 示意 


一 CRF 序列 标注 在 实现 前 ,需要 由 人 工 标注 原始 语 
料 芒 息 , 人 为 地 定义 预料 中 词 的 词性 、 程 度 . 类 别 等 属 

岗 阶段 ,在 进行 一 些 自然 语言 处 理 时 ,例如 命名 实 
体 识 别 工作 ,会 采用 神经 网 络 模型 学 习 训 练 数 据 , 并 产 
正 向 量 , 以 获得 更 好 的 预测 效果 。 然 而 神经 网 络 
会 比较 耗 时 , 且 模 型 的 部 分 输出 结果 是 错误 的 识 


ES 


识别 任务 中 ,将 一 些 人 工 预 定义 的 规则 添加 到 序列 标 
记过 程 中 ,这 样 可 以 取得 更 好 的 预测 效果 。 

综 上 所 述 ,LSTM 记忆 单元 和 门 结 构 有 效 解 决 了 传 
统 RNN 中 的 梯度 消失 缺陷 ;双向 LSTM 模型 不 仅 能 识 
别 过 去 的 文本 序列 信息 ,还 能 充分 考虑 未 来 的 序列 信 
息 ,使 得 上 下 文 信息 充分 完整 被 利用 。 在 编码 - 解码 
模型 中 引入 Attention 机 制 ,很 好 解决 了 文本 序列 的 长 
度 扩 张 时 ,各 个 序列 部 分 的 权重 。CRF 序列 标注 关注 
了 整个 文本 序列 的 局 部 特征 的 线性 加 权 组 合 , 即 通 过 
特征 模板 扫描 整个 句子 ,计算 的 是 联合 概率 ,优化 了 整 
个 序列 。 所 以 ,在 进行 大 数据 量 的 用 户 评论 文本 处 理 
时 ,可 以 引入 Bi-LSTM 神经 网 络 Attention 机 制 和 CRF 
序列 标注 ,实现 更 准确 的 文本 实体 识别 效果 。 


3 ”基于 新 词 发 现 的 本 体 演化 


本 人 研究 提出 基于 领域 新 词 发 现 的 本 体 演化 框架 , 见 
4。 其 核心 在 于 在 本 体 演化 中 ,加 入 领域 新 词 发 现 ,用 
于 捕捉 本 体 的 变化 。 而 领域 新 词 发 现 主 要 采用 深度 学 
习 中 基于 注意 力 机 制 的 双向 长 短期 记忆 神经 网 络 结合 
条 件 随 机 场 模 型 (Bi-LSTM + Attention + CRF)。 


1 
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名 疯 特 

江 向 训 4 | 

析 训 关 | 
巴 

@ 测 | 


类 的 增 、 删 、 改 


另 。 所 以 CRF 模型 可 以 用 于 命名 实体 
SN ED 
旧版 本 体 
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新 版 本 体 


本 体 结 构 调整 ] 


对 象 属性 的 增 、 删 、 改 


数据 属性 的 增 、 删 、 改 


实例 的 调整 


4 基于 新 词 发 现 的 本 体 演 化 整体 框架 


3.1 基于 深度 学 习 的 新 词 发 现 

如 上 文 所 述 ,已 有 众多 研究 提出 了 不 同 的 新 词 发 
现 的 方法 , 如 融合 信息 量 ”、 互 信息 ””、 句 法 分 
析 ”规则 ”等 方法 。 本 研究 为 进一步 提升 新 词 发 
现 的 准确 率 , 主 要 采用 深度 学 习 中 一 些 前 沿 算法 模型 ， 


如 Word2vec 算法 、Bi-LSTM-Attention-CRF 模型 等 。 根 
据 图 4 中 基本 流程 ,基于 深度 学 习 的 新 词 发 现 主要 包 
含 文 本 预 处 理 ,句法 分 析 、 词 向 量 舱 入 、 模 型 的 训练 与 
预测 .特征 聚 类 等 五 个 步 又 。 由 此 本 研究 提出 一 个 用 
于 本 体 演化 的 新 词 发 现 新 框架 ,如 图 5 所 示 : 
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(8) 85. =96; 


以 产品 评论 数据 为 例 [J Chinaiv 合 优 划 齐 


新 文本 数据 | 和 分 句 一 ”| 分词 "| 去 标点 二 去 停 用 误 
0 于 二 : 
[二 二 -一 句法 分 析 | 一 词性 标记 
| 词 形 还 原 | | 
i 一人 处 理 | 
| [Bi_LSTM 模型 
站 
» 模型 预测 | Attention 机 制 | 
词 做 入 CRF 模型 
We | 
要 要 模型 训练 
领域 新 间 Ee i 训练 文本 | 


图 5 用 于 本 体 演化 的 新 词 发 现 流程 


a 
3. 尼 1 文本 预 处 理 

CN 本 研究 以 亚马逊 电 商 平台 ( Amazon. com ) 的 用 户 
关 博 评论 数据 为 研究 数据 。 在 进行 新 词 发 现 前 ,需要 
对 沾 始 英文 预料 进行 文本 预 处 理 , 以 去 除 原始 文本 预 
料 电 的 异常 字符 和 标点 等 。 本 研究 以 Python 为 开发 语 
部 采用 Python 中 的 NLTK 工具 库 进行 分 句 ( Sentence 
Seedentation) .分词 (Word Tokenization ) 去 标点 (Elim- 
iihg Punctuation Marks ) 去 停 用 词 (Removing Stop 
网 浊 ) .词性 标记 (POS tagging) 等 ,并 在 词性 标记 的 基 
础 他 ,对 句子 中 的 词 进行 归 一 化 处 理 ( Nommaliza- 
tN 词 干 提取 (Stemming) 和 词性 还 原 (Lemmatiza- 
to 中。 最 后 得 到 带 有 词性 标注 的 原始 单词。 

-三 本 研究 选用 了 两 组 数据 集 ,分 别 作为 训练 集 和 测 
i 训练 集 主要 用 于 训练 Bi-LSTM-Attention-CRF 模 
型 ,测试 集 主要 来 源 于 新 文本 语 料 , 用 以 进行 领域 新 词 
的 发 现 和 抽取 。 

3.1.2 句法 分 析 
在 对 原始 预料 进行 预 处 理 的 基础 上 ,引入 句法 分 


依存 分 析 通 过 分 析 语 言 单 位 内 成 分 之 间 的 依存 关系 揭 
示 其 句法 结构 。 直 观 来 讲 , 依 存 句 法 分 析 识 别 句子 中 
的 “ 主 谓 宾 ”“ 定 状 补 " 这些 语法 成 分 ,并 分 析 各 成 分 
之 间 的 关系 。 比 如 “ Wireless charging damages battery 
health”, 这 里 “Wireless charging” 是 主语 ,“ damages” 是 
谓语 ,“battery health” 是 宾语 ,这 里 的 主语 和 宾语 都 有 
可 能 成 为 领域 新 词 ,因此 可 以 作为 候选 领域 新 词 。 
此 ,通过 句法 分 析 可 以 得 到 在 文本 句子 中 可 能 会 成 为 
领域 新 闻 的 候选 集 , 并 人 工 定义 筛选 规则 进行 过 滤 ,得 
选 出 第 一 阶段 的 候选 新 词 。 
3.1.3 词 幅 入 

在 深度 学 习 中 ,利用 词 散 入 (Word Embedding) 的 
寺 征 学 习 是 抽取 实体 的 有 效 方式 ”。 在 利用 深度 学 
习 模 型 进行 数据 训练 和 预测 前 ,需要 首先 进行 的 工作 
就 是 词 钥 入 ,将 经 过 文本 预 处 理 后 的 词 转 为 数值 化 向 
量 的 过 程 , 即 词 向 量化 。 

Word2vec( Word to Vector) 是 一 个 开源 的 深度 学 习 
工具 ,用 于 基于 神经 网 络 语言 模型 和 对 数 双 线 性 模型 


析 可 以 实现 对 领域 候选 新 闻 的 第 一 次 筛选 和 抽取 。 句 
法 分 析 (Syntactic Parsing ) ,作为 自然 语言 处 理 中 关键 
低层 技术 之 一 ,是 对 句子 中 的 词语 语法 功能 进行 分 
析 ” 。 句 法 分 析 分 为 句法 结构 分 析 ( Syntactic Structure 
Parsing) 和 依存 关系 分 析 ( Dependency Parsing) 。 为 获 
取 整 个 句子 的 句法 结构 或 者 完全 短语 结构 为 目的 的 句 
法 分 析 ,被 称 为 句法 结构 分 析 ; 而 以 获取 局 部 成 分 为 目 
的 的 句法 分 析 , 被 称 为 依存 分 析 。 

在 用 户 产 品评 论文 本 中 ,领域 新 词 主 要 是 由 名 词 、 
动词 构成 的 特征 词 ,以 及 特征 词 之 间 的 关系 词 。 因 此 ， 
为 获取 文本 句子 中 这 部 分 成 分 ,本 研究 采用 依存 分 析 。 


计算 单词 向 量 ” 。 通 过 学 习 文 本 ,捕获 文本 中 单词 的 
语义 信息 ,并 用 词 向 量 的 方式 表示 单词 。Word2Vec 主 
要 包括 两 个 模型 :CBOW 和 Skip-Gram。CBOW 模型 根 
据 给 定 的 上 下 文 预测 目标 单词 信息 ,而 Skip-Cram 模 
型 则 根据 给 定 的 单词 预测 在 其 上 下 文中 出 现 的 单词 。 
因此 ,考虑 到 用 户 产品 评论 中 可 能 具有 多 种 复杂 
且 湾 在 的 特征 和 特征 间 关 系 , 例 如 用 户 评论 数据 “Is 


not cool for me that AppStore occupy much storage , and 


waste battery quickly” 中 ,特征 词 “ AppStore”“ storage” 
和 “battery” 三 者 之 间 是 存在 着 相互 交错 的 关联 关系 ， 
且 在 上 下 文中 可 以 获取 到 对 于 一 个 特征 词 的 关联 关 
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系 ,因此 ,为 利于 提升 领域 新 词 发 现 的 精准 度 , 本 研究 
采用 Word2vec 中 的 CBOW 模型 进行 词 艇 和 人 ,并 在 降低 
训练 复杂 度 时 采用 负 杂 样 (Negative Sampling) ,以 实现 
通过 训练 评论 文本 的 上 下 文 语 境 ,预测 出 某 一 个 词汇 
的 词 向 量 表示 。 
3.1.4 ”Bi-LSTM-Attention-CRF 模型 训练 

在 词 舱 入 的 基础 上 ,考虑 到 本 研究 的 研究 数据 是 
大 规模 数据 量 的 非 结构 的 评论 文本 ,其 中 存在 复杂 多 
样 的 特征 实体 和 潜在 的 关联 关系 ,用 传统 的 命名 实体 
识别 的 方法 在 效率 和 效果 层面 都 存在 不 足 。 此 外 , 深 
度 学 习 算 法 ,例如 Bi-LSTM + CRF 算法 ,在 获取 领域 新 
词 时 效果 往往 更 加 准确 。 因 此 本 研究 引入 Bi- 
LSTM-Attention-CRF 模型 , 即 基 于 注意 力 机 制 的 双向 长 
短期 记忆 神经 网 络 结 合 条 件 随机 场 模型 。 本 研究 中 引 

Bi-LSTM-Attention-CRF 模型 框架 如 图 6 所 示 : 


CRF 
layer 
Attention 
layer 
Bi-LSTM 
layer 
Embedding 
layer 
ua face D words … much better 
CL 


< 人 图 6 Bi-LSTM-Attention-CRF 模型 框架 


Bi-LSTM-Attention-CRF 模型 具体 实现 是 ,通过 保 
存 双向 LSTM 中 Encoder 编码 器 对 输入 文本 序列 的 中 
间 输 出 ,训练 一 个 模型 来 选择 性 学 习 这 些 文本 输入 ,并 
在 模型 输出 时 将 输出 序列 与 之 进行 关联 ;然后 双向 
LSTM 加 上 Attention 机 制 学 习 到 了 输入 文本 序列 中 前 
后 信息 的 特征 ,再 利用 CRF 模型 根据 给 定 观 察 序 列 推 
测 对 应 的 状态 序列 ,可 以 利用 相 邻 前 后 的 标签 关系 来 
获取 当前 的 最 优 的 标记 。 

在 本 研究 中 ,为 发 现 输 入 文本 中 的 领域 新 词 ,采用 
Bi-LSTM-Attention-CRF 模型 来 处 理 文本 预 处 理 后 的 训 
练 集 和 测试 集 。 首 先 ,输入 文本 序列 中 每 个 词 的 词 向 
量 , 以 及 自动 标注 的 数据 集 ; 其 次 对 训练 集中 领域 词 向 
进行 模型 训练 ;然后 对 经 过 分 词 处 理 后 的 原始 训练 
,进行 人 工 标 注 领域 新 词 , 其 采用 的 标注 标签 为 BIE- 
SO 五 种 标签 (B_new, I_new, E_new, S_new, 0)。 其 


浪 邮 


中 ,B 即 Begin, 表 示 新 词 词组 的 开始 ;1, 即 Intermedi- 
ate ,表示 新 词 词组 的 中 间 ;FE, 即 End ,表示 新 词 词组 的 
结尾 ;S, 即 Single ,表示 单个 新 词 字符 ;0 , 即 Other ,表示 
其 他 ,用 于 标记 非 新 词 的 无 关 字 符 。 数 据 集 进行 标注 
的 示例 如 表 1 所 示 : 

表 1 标注 示例 


词 标签 
3D B_new 
Touch E_new 
and 0 
face B_new 
recognition E_new 
are 0 
super 0 
fast 0 
and 0 
User 0 
friendly 0 


最 后 ,利用 训练 集训 练 Bi-LSTM-CRF 网 络 , 即 每 一 
轮 迭 代 都 需要 进行 Bi-LSTM 前 向 传播 和 后 向 传播 、At- 
tention 层 编码 和 解码 .CRF 层 正 向 传播 和 反 向 传播 ,并 
用 训练 后 的 模型 预测 测试 集中 的 领域 新 词 。 通 过 Bi- 
LSTM-Attention-CRF 模型 对 测试 集 数据 进行 领域 新 闻 
的 预测 后 ,获取 到 第 二 阶段 的 领域 候选 新 词 。 
3.1.5 特征 聚 类 

由 于 用 户 产品 评论 中 ,对 于 产品 同一 个 特征 、 功 能 
或 组 件 的 表达 方式 不 尽 相同 ,例如 iPhone X 系列 出 现 
的 新 功能 一 一 面部 识别 ,有 的 用 户 可 能 会 用 “face 
recognization ” ”face scanning” 
“facial scan” 等 词组 。 此 时 需要 对 第 二 阶段 识别 出 的 
候选 领域 新 词 进行 过 滤 , 筛 选 出 真正 的 用 于 本 体 演化 
的 领域 新 特征 ,本 文 则 采用 同义词 中 高 频 词 作为 该 特 
征 的 领域 新 闻 。 此 外 ,对 于 第 二 阶段 获取 到 的 领域 候 
选 新 词 ,需要 对 这 些 新 词 进行 归 类 ,判断 其 隶属 于 产品 
本 体 中 哪个 位 置 ,利于 后 期 本 体 演化 工作 的 变化 捕捉 ， 
本 文 则 采用 特征 抽取 中 K-means 聚 类 方法 。 

K-Means 算法 的 基本 思想 是 ,事先 确定 常数 K, 常 
数 K 意味 着 最 终 的 聚 类 类 别 数 。 首 先 随机 选 定 初始 点 
为 质心 ,并 通过 计算 每 一 个 样本 与 质心 之 间 的 相似 度 ， 
将 样本 点 归 到 最 相似 的 类 中 ;然后 重新 计算 每 个 类 的 
质心 ,重复 这 样 的 过 程 ,直到 质心 不 再 改变 ,最 终 就 确 
定 了 每 个 样本 所 属 的 类 别 以 及 每 个 类 的 质心 。 通 过 
K-means 可 以 将 候选 领域 新 闻 进 行 初步 聚 类 , 然后 通 
过 领域 专家 知识 进行 类 别 的 判断 ,以 确定 出 一 个 产品 


[3 . 时 于 
facial recognization 
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/ct | 日 工 
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不 同类 别 下 领域 新 特征 。 如 表 2 所 示 为 iPhone 手机 产 
品 的 新 特征 聚 类 结果 示例 。 
表 2 新 特征 聚 类 结果 示例 


类 别 特征 词 
feature iPhone X iPhone Xr 256G memory iPhone 11 
function 3D Touch face recognition face ID battery health 
component crystal clear glass screen AirPods no-home 


speaker protector button 


3.2 ”基于 新 词 发 现 的 本 体 演化 

根据 图 4 基本 流程 图 可 知 ,本 研究 选用 的 本 体 演 
化 基本 框架 , 即 从 变化 捕捉 (Capturing) 、 变 化 表示 
( Representation ) .语义 变化 (Semantic of change ) 、 变 化 
实施 ( Implementation ) 、 变化 传播 ( Propagation ) 到 变化 
确认 (Validation ) 这 一 基本 流程 框架 ,主要 采用 的 是 在 
本 琳 演 化 流程 的 研究 中 具有 代表 性 的 LStojanovic 
站 提出 的 六 阶段 划分 法 。 
@ 本 研究 提出 的 本 体 演化 的 框架 在 六 阶段 划分 法 的 
基础 上 ,首先 在 变化 捕捉 过 程 中 增加 了 新 词 发 现 技术 ， 
如 3 1 小 节 所 述 。 由 于 本 研究 的 对 象 是 评论 文本 , 且 
文书 数据 随 着 时 间 和 空间 的 变化 ,会 出 现 较 多 某 一 个 
锁 训 的 新 特征 ,新 功能 。 在 用 户 产品 评论 中 会 包含 关 
陇 条 款 产 品 的 最 新 功能 和 组 件 ,例如 iPhone X 出 现 的 
无 线 充电 ,无 Home 按键 等 。 因 此 利用 新 词 发 现 技术 ， 
起 芭 很 好 地 捕 提 本 体 中 概念 和 关系 以 及 实例 的 变化 。 
次 ,变化 表示 (Representation ) 是 处 理 变 化 的 前 
时 下 作 , 实 质 是 用 形式 化 的 方式 表示 领域 本 体 的 变化 
动 菲 ,包括 领域 本 体 结构 .概念 的 调整 ,例如 利用 产品 
评话 中 一 些 典型 的 领域 特征 词 表示 产品 某 一 方面 的 特 
征 .功能 等 。 语 义 变 化 (Semantics of change ) 是 对 领域 
本 体 变化 进行 语义 控制 ,包括 概念 的 变化 ,关系 的 变化 


以 及 实例 的 变化 。 在 领域 产品 本 体 中 ,概念 的 变化 主 
要 体现 在 对 于 领域 本 体 的 类 的 调整 ,例如 手机 插口 类 
(Jack class) 在原 领域 本 体 中 是 包含 耳机 插口 和 充电 插 
口 两 个 子 类 ( Subclass) , 而 新 产品 (如 iPhone 8 系列 、 
iPhone X 系列 ) 中 将 充电 插口 和 耳机 插口 合并 ,共用 一 
个 插口 ,此 时 需要 调整 该 概念 为 充电 及 耳机 插口 。 关 
系 的 变化 主要 体现 在 ,原本 体 中 存在 的 一 对 一 的 关系 
会 被 调整 为 一 对 多 、 多 对 一 ,其 至 多 对 多 的 关系 。 例 如 
新 产品 的 价格 类 ( Price class ) 会 出 现 多 个 类 共同 决定 
价格 , 即 产 地 (place of origin ) 内 存 (storage) 颜色 
(color) 屏幕 尺寸 (screen size ) 等 会 决定 该 手机 产品 的 
价格 。 实 例 的 变化 主要 是 出 现 的 一 些 新 实例 (individ- 
ual) ,例如 手机 像素 类 ( camera_pixel) 出 现 单 摄 1 200 
万 像素 .后 置 双 1 200 万 像素 等 ;此 外 ,iPhone 11 系列 
产品 的 机 身 颜色 (body_color) 出 现 了 紫色 白色、 绿色 、 
黄色 .黑色 .红色 六 种 颜色 实例 。 

变化 实施 (Implementation ) 的 工作 包括 对 于 本 体 
结构 的 调整 和 实例 的 调整 。 其 中 ,对 于 本 体 结 构 的 调 
整 ,是 包括 类 的 增删 改 `, 对 象 属 性 的 增删 改 .数据 属性 
的 增删 改 。 对 于 实例 的 调整 ,本 研究 主要 采用 C. 
Huang 等 "5 提出 对 于 实例 增加 和 调整 约束 (Restric- 
tion ) 的 方法 。 对 于 领域 产品 本 体 的 调整 如 表 3 所 示 。 
变化 的 传播 (Propagation ) 是 在 一 个 领域 本 体 发 生 演化 
后 保证 并 维护 和 它 相 关 的 本 体 的 一 致 性 ,以 避免 本 体 
演化 造成 的 重要 影响 之 一 一 一 导致 前 后 本 体 版 本 的 不 
兼容 。 本 研究 采用 protégé 中 的 演化 插件 ,如 Change- 
management 插件 .PROMPT 插件 "等 ,对 这 些 变 化 进 
行 传播 和 转移 ,以 便于 其 他 领域 本 体 的 重用 和 继承 本 
领域 的 新 版 本 体 。 


表 3 领域 产品 本 体 中 类 和 实例 的 调整 ( 部 分 ) 示例 


类 Class 实例 mdividuals 
增加 face_recognition Wireless_charging AirPower 256G 
删除 fingerprint_recognition Home_button 4_inches 16G 
修改 Metal_frame—>Stainless_steel_frame Retina_Display—Super_Retina_Display AG6_processor—A1l1_processor 8_million_pixels—12_million_pixels 


最 后 ,变化 的 确认 (Validation ) 阶段 是 对 上 述 领 域 
本 体 演化 过 程 的 最 终 确认 ,通过 领域 专家 或 机 器 识别 
的 方法 ,对 以 上 这 些 步 又 的 核准 之 后 ,确认 对 领域 本 体 
的 修改 ,并 且 还 可 根据 从 文本 中 挖掘 的 用 户 需求 删除 
一 些 变化 ,以 完成 变化 的 最 终 确 认 。 


4 实验 与 结果 分 析 


4.1 数据 来 源 与 预 处 理 

本 文 以 智能 手机 领域 用 户 产品 评论 对 例 进 行 实验 
研究 。 在 前 期 研究 ” ”已 构建 出 智能 手机 领域 产品 本 
体 的 基础 上 ,本 实验 选用 了 亚马逊 电 商 平台 (Amazon. 
com) 的 苹果 公司 iPhone 智能 手机 2019 年 新 款 产品 评 
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论 为 研究 数据 ,对 前 期 研究 构建 的 领域 本 体 进行 本 体 
演化 的 实验 。 利 用 礁 虫 共 疏 取 2013 年 款 iPhone 5C/5S 
系列 手机 评论 共 10 437 条 ,和 2019 年 新 款 iPhonel1l 系 
列 评论 共 2 798 条 ,作为 本 研究 的 实验 数据 。 其 中 以 
2013 年 款 iPhone 5C/5S 系列 手机 评论 数据 为 训练 集 
数据 ,以 2019 年 新 款 iPhonell 系列 评论 为 测试 集 数 
据 。 

利用 3.1.1 小 节 的 文本 预 处 理 方法 ,对 新 语料库 
进行 分 句 、 分 词 去 标点 .去 停 用 词 .词性 标注 、 归 一 化 
处 理 等 ,并 利用 Word2vec 模型 生成 新 语 料 的 词 向 量 空 
间 。 在 训练 Bi-LSTM-Attention-CRF 模型 前 ,对 训练 集 
和 测试 集 进 行人 工序 列 标注 ,采用 3.1.4 小 节 表 1 示 
例 的 方法 进行 标注 , 共 标 注 了 23 672 个 单词 。 
4 章 = 评价 指标 

一 通过 本 文 提出 的 领域 新 词 发 现 技术 可 以 识别 出 产 

此 领域 新 特征 ,用 以 领域 本 体 演化 中 变化 的 捕捉 。 

对 于 领域 新 词 发 现 进行 评价 时 ,主要 思路 是 利用 
的 Bi-LSTM-Attention-CRF 模型 识别 出 测试 
集 漆 料 中 的 智能 手机 领域 新 词 与 人 工 标注 的 领域 新 词 
半生 对 比 ,可 以 评价 出 本 研究 采用 模型 的 优 劣 。 其 中 ， 


My 


CN 国 Precision 
© 100.009% 
CN 90.0045 a 
En 
> 80.00% 
LT 
>< 70.00% 
5G 加 60.0045 
| 
CC B50.00% 
uy 
CE bE 
ee 人 4000% 
© 30.0045 
20.009%% 
10.009%% 
0.0096 
Bi-LSTM-Attention-CRF Bi-LSTM-CRF 
国 Precision 91.75% 84.87% 
国 Recall 86.7090 78.9045 
上 上 -measure 89.15% 81.77% 


国 Recall 


评估 的 指标 为 :准确 率 ( Precision) ,召回 率 ( Recall ) 了 
值 (F-measure ) 。 公 式 如 下 : 


correct_found_new_words 


Precision = 
found_new_words 


correct_found_ new_words 


Recall = 


correct_new_words 


2 x Precision x Recall 
Precision + Recall 


其 中 ,correct_found_new_words 表示 模型 正确 识别 
出 领域 新 词 的 数量 ;found_new_words 表示 模型 识别 出 
领域 新 词 的 总 数量 ;correct_new_words 表示 新 语 料 中 正 
确 的 领域 新 词 总 数 。 
4.3 实验 结果 与 讨论 

在 领域 新 词 发 现 的 实验 中 ,为 验证 方法 的 有 效 性 ， 
本 研究 结合 苹果 公司 官方 文档 、 电 商 平 台 产 品 详情 以 
及 领域 专家 知识 ,人 工 标 注 了 领域 新 词 共 654 组 ,作为 
语 料 中 正确 的 领域 新 词 。 以 CRF 模型 进行 过 滤 新 词 
的 方法 为 baseline ,然后 对 比 LSTM 结合 CRF 模型 、 双 
向 LSTM 结合 CRF 模型 ,以 及 本 研究 所 采用 的 双向 
LSTM-Attention-CRF 模型 ,对 比 结果 如 图 7 所 示 : 


上 上 -measure = 


口 了 -measure 


LSTM-CRF CRFE 
81.77% 80.85% 
74.77% 72.94% 
78.12% 76.69% 


7 领域 新 词 发 现 模型 对 比 结果 


由 图 7 实验 结果 可 知 , 利 用 Bi-LSTM-Attention- 
CRF 模型 处 理 得 到 的 领域 新 词 效 果 最 佳 ,准确 率 达 到 
91.75% ,F 值 达到 了 89. 15% 。 

男 一 方面 ,为 验证 本 研究 采用 的 领域 新 词 发 现在 
不 同 数据 集 的 通用 性 ,以 类 似 于 智能 手机 数据 集 的 收 
集 和 处 理 方 法 ,本 研究 还 进行 了 数码 相机 产品 评论 数 
据 集 .笔记 本 电脑 产品 评论 数据 集 的 对 比 实验 。 在 采 
用 Bi-LSTM-Attention-CRF 模型 的 领域 新 词 发 现 的 方法 


下 ,不 同 数 据 集 对 于 领域 新 词 的 识别 效果 对 比 见 图 8。 

由 图 8 实验 结果 可 知 ,本 研究 采用 的 领域 新 词 发 
现 的 方法 在 不 同 数据 集 的 准确 率 都 高 于 85% ;而 由 于 
数码 相机 产品 和 笔记 本 电脑 的 新 特征 相对 较 少 ,导致 
召回 率 相对 不 高 ,但 都 保持 在 70% 以 上 。 因 此 ,上 述 
两 个 实验 结果 可 以 验证 利用 本 研究 的 模型 ,可 以 有 效 
地 对 评论 文本 中 领域 新 词 进 行 识别 和 抽取 。 

在 本 体 演化 的 实验 中 ,以 iPhone 智能 手机 领域 产 
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以 产品 评论 数据 为 例 [J chp 人 人 秽 上 草 
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©O 8 不 同 数据 集 领域 新 词 识 别 效果 对 比 结果 


S 

品 本 体 的 演化 为 例 。 在 前 期 研究 已 有 领域 产品 本 体 的 
基础 上 ,根据 基于 领域 新 词 发 现 的 结果 ,并 利用 第 3.2 
基于 用 的 本 体 演化 的 方法 ,可 以 对 领域 本 体 进行 动态 
调 绕 。 经 过 本 体 演化 的 处 理 后 , 旧版 和 新 版 智能 手机 
i Protégé 中 呈现 如 图 9 图 10 所 示 。 图 
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9 是 旧版 领域 产品 本 体 的 显示 结果 ;图 10 在 Protégé 中 
的 OntoGraf 模块 中 显示 的 结果 ,其 主要 展示 出 本 体 演 
化 后 领域 本 体 结构 的 变化 ,以 及 本 体 的 类 和 结构 的 变 
化 。 在 图 10 中 ,其 中 带 有 ”new" 标记 且 用 粗 线 框 标记 
的 矩形 框 为 新 版 本 体 新 增 的 类 。 
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9 ”Protégé 中 旧版 领域 本 体 结构 ( 部分) 示例 


由 上 述 新 版 领域 本 体 结果 可 知 ,前 期 研究 主要 基 
于 一 些 早期 的 用 户 评论 文本 数据 ,由 此 构建 的 旧版 领 
域 本 体会 出 现 应 用 受 限 的 缺陷 , 即 随 着 时 间 和 空间 的 


变化 ,本 领域 内 会 出 现 新 特征 、 新 功能 ,以 及 要 求 调整 
领域 本 体 的 结构 等 需求 ,旧版 领域 本 体 就 必须 进行 调 
整 。 新 版 领域 本 体 是 在 即时 的 、 最 新 的 用 户 产品 评论 
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背景 下 演变 而 来 的 ,在 处 理 新 文本 时 具有 可 靠 性 ， 
帮助 产品 设计 者 根据 领域 本 体 中 用 户 关注 的 产品 
新 险 f 征 .新 功能 .新 组 件 等 ,优化 产品 设计 ,也 可 以 为 消 
费 者 利用 产品 评论 进行 产品 购买 决策 时 提供 支持 ,由 
虞 识 延 续 并 进一步 发 挥 产品 评论 下 领域 产品 本 体 的 应 
用 伍 值 。 

PC 

5 (5 结语 

刁 

-三 随 着 知识 的 增加 和 需求 的 变化 ,及 时 动态 调整 令 
域 力 体 对 于 本 体 的 应 用 具有 重要 的 意义 。 本 文 提出 了 
一 种 基于 领域 新 词 发 现 的 本 体 演 化 方法 ,并 以 用 户 产 
品评 论 为 例 论证 该 方法 的 有 效 性 。 本 文 从 理论 意义 层 
面 ,提出 了 一 个 基于 领域 新 闻 发 现 的 本 体 演化 框架 ,以 
及 一 种 融合 了 Word2vec 算法 、Bi-LSTM-Attention-CRF 
算法 k-means 算法 的 领域 新 词 发 现 方法 ,并 基于 用 户 
产品 评论 为 例 验证 方法 的 有 效 性 ,利于 在 非 结构 化 文 
本 数据 的 知识 组 织 和 长 期 利用 。 在 实践 意义 层面 ,本 
文 对 于 从 评论 文本 中 构建 的 领域 产品 本 体 进行 了 演 
化 ,利用 领域 新 词 发 现 技术 ,从 新 颖 的 评论 文本 语 料 中 
挖掘 出 产品 的 新 特征 .新 功能 .新 组 件 等 ,为 产品 设计 
者 优化 产品 设计 提供 帮助 ;同时 ,也 为 消费 者 在 利用 产 
品评 论 进行 购买 产品 时 ,提供 购买 决策 支持 。 未 来 将 
继续 进行 不 同 领域 的 本 体 演化 的 一 致 性 和 复 用 性 研 
究 ,如 融入 本 体 对 齐 . 本 体 映射 等 方法 。 同 时 将 利用 新 
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10 ”Protégé 中 新 版 本 体 中 结构 ( 部 分 ) 示例 


版 领域 本 体 进 行 更 多 的 应 用 ,例如 知识 推理 、. 知 识 图谱 
构建 等 ,充分 发 挥 新 版 领域 本 体 的 价值 。 
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Integrating Word Semantic Representation and New Word Identification for 
Domain Ontology Evolution: A Case Study of Product Online Reviews 
Geng Qian ” Deng Siyu” Jin Jian” 
' Center for Governance Studies, Beijing Normal University, Zhuhai 519087 
“School of Government, Beijing Normal University, Beijing 100875 
Abstract: | Purpose/ significance | Due to the inaccuracy and low efficiency in capturing new knowledge and 
new requirements in traditional ontology evolution, based on domain new word identification, an ontology evolution 
method is proposed and evaluated by analyzing a large volume of product online reviews. | Method/process | First, 
a series of natural language processing algorithms were used to pre-process product review text corpus, and the 
Word2vec algorithm was adopted for word vector embedding. Then, a Bi-LSTM-Attention-CRF algorithm was utilized 
for the recognition and extraction of new words in a candidate set, and the K-means algorithm was applied for cluste- 
ring to get the final domain new words. Finally, the Six-Stage evolution process of ontology evolution was invited for 
Janalyzing domain ontology evolution. | Result/conclusion | By analyzing smart phone reviews as examples, it can be 
Tiand that the proposed approach about new word identification presents a higher accuracy and recall rate and a new 
ersion of the product ontology in the smart phone domain can be evolved accordingly. It helps designers to optimize 
(féature and function configuration in new product development and consumers to analyze online opinions for purchase 
Gauisions. 
© Keywords: ontology evolution domain new words new word detection attention mechanism Bi-directional 
g Short-Term-Memory Conditional Random Field 
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着 高校 师 生 实践 工作 者 ,企业 代表 参 会 ,同时 面向 学 界 业界 征文 ,并 评选 优秀 论文 .颁发 优秀 论文 证 书 。 部 分 优秀 论文 将 在 会 上 交流 并 在 《外 
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